面向证券应用的WEB主题观点挖掘若干关键问题研究

面向证券应用的WEB主题观点挖掘若干关键问题研究

作者:师大云端图书馆 时间:2015-11-20 分类:期刊论文 喜欢:4218
师大云端图书馆

【摘要】受有效市场假说的影响,证券行业不断重视对互联网文本数据的研究。但随着互联网技术的发展,尤其是近年来涌现出各种社交网络平台,互联网上的文本数据发生很大变化,开始出现大量带有感情色彩的主观性信息。这些主观性信息的内容涉及社会生活中的各种热点话题,因此在证券行业拥有巨大的应用空间。然而,主观性信息在文本中的表现形式与客观性信息不同,一般比客观性信息更加复杂,因此利用传统的文本挖掘方法已经无法解决这类信息的挖掘问题。在这种背景下,以挖掘文本中主观性情感信息为研究目标的观点挖掘技术应运而生。互联网观点挖掘研究不仅具有巨大的学术价值,其挖掘结果还能帮助解决许多行业的应用需求,因此该领域的研究不仅受到学术界的广泛关注,还吸引了众多行业的注意。其中,在证券行业就出现利用社交网络情感信息预测股市波动的应用案例。相对之前的方法,这些基于观点挖掘的应用取得了一定的成效,但总体来看,其应用效果仍无法令人满意。这是因为目前的观点挖掘研究仅注重对观点信息的挖掘,忽视了观点与主题内容的联系,然而证券行业对信息的需求,不仅包括互联网上的观点信息,还同时希望把握其中蕴含的主题。因此,现有的观点挖掘方法也难以很好的满足证券行业对信息的需求。针对这一问题,本文提出了一种面向Web文本主题的观点挖掘研究,简称主题观点挖掘研究。围绕这一研究,我们分别对主题观点挖掘、主题观点量化、主题观点集成,以及主题观点分类等若干关键问题展开深入分析,并提出相应的解决的方法。此外,为了验证本文方法的有效性,我们不仅在实验中验证了本文方法解决现有观点挖掘任务的能力,还专门将挖掘模型应用到的股市波动预测应用中。实验结果不仅证明了本文方法的有效性,还发现了许多有意思的结论。总体来看,本文研究工作有如下几个方面的创新:1.针对现有方法在挖掘观点信息时忽略了主题信息这一不足,本文首先提出一种文档主题观点挖掘模型(Document-Topic-Opinion,简称DTO模型)。该模型在标准LDA模型关于文档(Document)、主题(Topic)和词汇(Word)的三层结构基础上,进一步引入观点(Opinion)的概念,是一种四层贝叶斯概率生成模型。从机器学习的角度看,DTO模型是一种非监督的学习模型。由于DTO模型中未知参数间存在耦合关系,无法通过形式化推理求解模型的未知参数,本文提出采用MCMCGibbsi油样的方法实现对未知参数的近似估计。实验结果表明,DTO模型具有较强的主题和观点挖掘能力,利用该模型不仅可以取得较高的文档观点分类准确率,还能挖掘出带有情感倾向性的主题内容。2.针对现有观点量化方法的不足,本文在DTO模型基础上,首先提出主题观点分布的假设,假设文本的观点信息是在多个隐含主题上的多项分布。依据这一概率假设,本文进一步提出了主题观点的量化表达模型,即文档主题观点向量模型(Document-Topic-OpinionVector,简称DTOV模型)。利用DTO模型,可以将文档观点(ArticleOpinion)与文档主题观点关联起来,最终实现对DTOV模型的量化计算。以DTOV为分类特征的情感分类实验结果表明,DTOV具有较好的主题观点量化能力。3.针对现有观点集成方法的不足,本文首次提出一种基于文档权重(Article-Weight)和主题权重(Topic-Weight)的主题观点集成模型(Topic-OpinionVec-torAggregationModel,简称TOVA模型)。该模型通过集成文档集合中所有文档的主题观点,为整个文档集生成一个主题观点集成向量(AggregativeTopic-OpinionVector,简称ATOV)。利用TOVA模型,可以同时挖掘出互联网上多个热点话题的舆情信息,具有较高的应用价值。为了验证观点集成模型的有效性,本文利用DTO模型对中国最大的互联网门户网站新浪财经每日发布的股票相关文本信息进行主题观点挖掘,为每篇互联网财经文档生成一个对应的DTOV,然后再利用TOVA模型整合每天所有的DTOV,最终得到每天的主题观点集成向量ATOV。ATOV可以看作是每日互联网上围绕热点主题的观点信息,为了进一步验证其对股市波动的预测能力,我们将每日生成的ATOV作为特征数据,利用文本分类方法对上证综指隔日波动方向进行预测。实验结果验证了ATOV对股市波动的预测能力,同时也反映出TOVA模型较强的观点整合能力。4.针对现有方法对文本多分类模型研究的不足,本文在正则化理论和模糊集理论的基础上,首次提出了一种多数据域描述(MultipleDataDomainDescriptionModel,简称MDDD模型)的文本多分类方法。MDDD模型本质上是一种多任务学习算法,该模型继承了多任务学习方法的优势,在建立训练模型时,能整体考虑各个分类的相互关联,因此克服了单任务集成分类模型这方面的不足。为了验证方法的有效性,我们将该模型分别应用到文档多分类,及序列数据多分类问题中,以此为基础的上证综指隔日趋势波动预测和文本多分类的实验结果很好的证明了MDDD模型的有效性。
【作者】薛利;
【导师】朱扬勇;
【作者基本信息】复旦大学,计算机软件与理论,2013,博士
【关键词】观点挖掘;文本挖掘;主题模型;股市预测;多任务学习;

【参考文献】
[1]王振兴.基于视频拼接的无人实况转播系统[D].杭州电子科技大学,计算机技术,2014,硕士.
[2]唐颖萍.《伊豆舞女》中的称谓语的汉译研究[D].吉林大学,日语笔译,2013,硕士.
[3]王康,葛晓慧,辛焕海,甘德强.基于牛顿—拉夫逊法的光伏面板模型参数计算[J].电力系统自动化,2010,20:94-98+107.
[4]闫成玉.木128区块扶杨油层砂体分布研究[D].东北石油大学,地质工程(专业学位),2013,硕士.
[5]员振铎.部队医院军人医疗服务信息系统的开发与实现[D].内蒙古师范大学,地图学与地理信息系统,2013,硕士.
[6]杜觐位.上古太阳神话研究[D].重庆大学,汉语言文字学,2014,硕士.
[7]周平良.当代青年大学生红色信仰教育有效途径的探讨[D].江西农业大学,思想政治教育,2012,硕士.
[8]马啸飞.可逆信息隐藏及其在医学图像中的应用研究[D].燕山大学,生物医学工程,2014,硕士.
[9]江远.监督过失犯罪研究[D].苏州大学,法律(专业学位),2014,硕士.
[10]陈英.高速混磨法制备聚合物基PTC导电复合材料的研究[D].吉林大学,材料学,2013,硕士.
[11]张果香.中学思想政治教育主体道德修养研究[D].湖南师范大学,思想政治教育,2014,硕士.
[12]李允博,徐荣.数据业务承载技术应用分析[J].电信网技术.2007(08)
[13]朱伟.我国审计期望差距的构成要素及缩小对策之研究[D].浙江工商大学,会计学,2013,硕士.
[14]李墨雪.直流牵引供电系统建模及基于电流变化特征量的保护算法研究[D].北京交通大学,2010.
[15]蓝晓霞.高校形象宣传的传播学思考[J].北京教育(高教),2014,02:34-35.
[16]伍正祥.亚临界水法制备醋酸甲地孕酮超细颗粒的研究[D].北京化工大学,化学工程与技术,2013,硕士.
[17]张建林,席琳,于春,曾科,卓玛,旺杰,多布杰,贾玮,金鹏.西藏洛扎县吉堆墓地与吐蕃摩崖刻石考古调查简报[J].考古与文物,2014,06:15-25+2.
[18]王岩.空空导弹制导控制及抖振抑制的研究[D].东北大学,导航、制导与控制,2010,硕士.
[19]李亮亮.我国城乡收入差距[D].西北师范大学,数量经济学,2014,硕士.
[20]蔡敏.十堰市神定河流域综合治理的探究[D].长安大学,环境工程(专业学位),2014,硕士.
[21]陈露.论浪漫主义时期艺术歌曲钢琴伴奏的特点与方法[D].吉林艺术学院,音乐学,2012,硕士.
[22]刘敏.供应链战略合作伙伴的评估及风险防范[D].武汉理工大学,企业管理,2003,硕士.
[23]徐雅莉.共振光散射法快速检测食品中的毒死蜱和新霉素残留的研究[D].河南农业大学,食品科学,2012,硕士.
[24]周宝华,曲在文,刘颖.几种核电设备大锻件的锻造生产[J].一重技术.1997(01)
[25]栾波.京剧“包公戏”初探[D].中国戏曲学院,戏剧戏曲学,2014,硕士.
[26]王大伟.大学生社团管理实证性研究[D].内蒙古师范大学,公共管理(专业学位),2013,硕士.
[27]张梦龙.基于公共物品属性视角的铁路改革结构特性研究[D].北京交通大学,2014.
[28]钟小刚.甘肃省苹果链格孢叶斑病病原鉴定及诱导抗病性研究[D].甘肃农业大学,作物保护,2013,硕士.
[29]任立新.辽宁龙源风电公司基本建设成本控制研究[D].大连理工大学,MBA(专业学位),2013,硕士.
[30]李志博.基于逆向工程与快速成型的轮胎花纹块模具制造技术[D].大连理工大学,材料连接技术,2013,硕士.
[31]李志伟.分子烙印及相关技术分离分析那格列奈和氨基安替比林[D].河北大学,分析化学,2003,硕士.
[32]曾德智.我国商业银行信用卡客户关系管理模式研究[D].重庆大学,2003.
[33]赵东风,罗敏明.南矿深部充填自动控制系统[J].冶金自动化,1987,06:54-56.
[34]黄娉婷.关于协同创新研究文献的计量学分析[J].顺德职业技术学院学报,2014,04:32-35.
[35]张富强,文福拴,颜汉荣,余志伟,钟志勇,黄杰波.计及风险的电力市场双边合同多阶段谈判模型[J].电力系统自动化,2010,22:29-35.
[36]赵连昌.中国现代文学目录学类型研究——中国现代文学文献学类型研究之一[D].青岛大学,中国现当代文学,2004,硕士.
[37]陈蒙伟.配电网动态无功广域在线控制的研究[D].杭州电子科技大学,控制理论与控制工程,2013,硕士.
[38]查天翔,何缵荣.论西部省区山区地州电台大功率中波充分利用天波扩大覆盖的必要性可行性[J].广播与电视技术.2003(04)
[39]项娟.《湖南省湘江保护条例》的法律思考[D].湖南师范大学,法律(专业学位),2014,硕士.
[40]范文杰.冀东平原地区土壤肥力及其分异特性研究[D].北京林业大学,水土保持与荒漠化防治,2014,博士.
[41]刘利.超越民族中心主义:《阿凡达》身份诉求[D].四川外国语大学,英语语言文学,2013,硕士.
[42]冯光明,陆超,黄志刚,韩英铎,余贻鑫.基于雅可比矩阵的电压控制区域划分的改进[J].电力系统自动化,2007,12:7-11.
[43]栗然,刘宇,黎静华,顾雪平,牛东晓,刘永奇.基于改进决策树算法的日特征负荷预测研究[J].中国电机工程学报,2005,23:36-41.
[44]闫晓静.351例过敏性紫癜住院患儿临床分析[D].河北医科大学,儿科学,2014,硕士.
[45]刘蔚,韩祯祥.基于支持向量机的配电网重构[J].电力系统自动化,2005,07:48-52.
[46]赵亮.南湾鳙鱼鱼肉品质特性研究[D].西北农林科技大学,食品加工与安全,2012,硕士.
[47]张智晟.基于多元理论融合的电力系统短期负荷预测的研究[D].天津大学,2004.
[48]张阳.大相国寺仪式音乐研究[D].天津音乐学院,艺术学,2013,硕士.
[49]张小娟,孙水裕,杜青平,叶茂友,梁杰慧,刘敬勇.含松醇油实际选矿废水的COD生物降解[J].环境工程学报,2013,11:4241-4245.
[50]方晓云.Shp2及NK1R在肥大细胞活化过程中的作用及其分子机制研究[D].复旦大学,生物化学与分子生物学,2012,博士.

相关推荐
更多